当前位置: 开发笔记 > 编程语言 > 正文

动手练习|3步用Python运行机器学习

作者：mobiledu2502899415 | 来源：互联网 | 2023-09-15 10:05

根据经验，用Python运行机器学习包含了3个步骤：1.获取数据2.建立机器学习模型3.优化机器学习模型1.目标我们有2008~2018年的兽医数据集&

根据经验&＃xff0c;用Python运行机器学习包含了3个步骤&＃xff1a;

1. 获取数据

2. 建立机器学习模型

3. 优化机器学习模型

1.目标

我们有2008~2018年的兽医数据集&＃xff0c;它包含了动物&＃xff08;狗、猫和雪貂&＃xff09;的注册信息。

如上图&＃xff0c;数据集特征包含了时间戳、动物名称、体重&＃xff08;单位Kg&＃xff09;、表皮病学水平、是否有李氏杆菌病。

表皮病学水平的检测是非常昂贵的&＃xff0c;且对动物可能有伤害&＃xff0c;因此我们的目标是建立机器模型&＃xff0c;通过其他特征预测表皮病学水平&＃xff0c;从而防止动物受到伤害并能节约成本。

2.你需要准备什么

任何版本的Python&＃xff08;https://www.python.org/downloads/&＃xff09;
Pip(https://www.makeuseof.com/tag/install-pip-for-python/)
安装Sklearn ,Panda&＃xff0c;openblender&＃xff08;利用Pip&＃xff09;

pip install pandas OpenBlender scikit-learn

推荐使用Jupyter Notebook的Python编辑器&＃xff08;https://jupyter.org/install&＃xff09;

步骤1&＃xff1a;获取数据

导入将要使用的Python库&＃xff1a;

import OpenBlender import pandas as pd import numpy as np import json import sklearn from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error

我们通过OpenBlender API获取数据。您需要在https://www.openblender.io中创建一个acount账户来获得一个令牌和user_id(它是免费的)

首先&＃xff0c;我们定义参数(在本例中它只是数据集的id)&＃xff1a;

# It only contains the id, we&＃39;ll add more parameters later. parameters &＃61; {&＃39;token&＃39; : &＃39;YOUR_TOKEN&＃39;,&＃39;id_user&＃39; : &＃39;YOUR_USER_ID&＃39;,&＃39;id_dataset&＃39;:&＃39;5db079199516296099c9fb1e&＃39; }

数据转换为dataframe格式&＃xff1a;

# This function pulls the data and orders by timestamp def pullObservationsToDF(parameters):action &＃61; &＃39;API_getObservationsFromDataset&＃39;df &＃61; pd.read_json(json.dumps(OpenBlender.call(action,parameters)[&＃39;sample&＃39;]), convert_dates&＃61;False,convert_axes&＃61;False) .sort_values(&＃39;timestamp&＃39;, ascending&＃61;False)df.reset_index(drop&＃61;True, inplace&＃61;True)return df df_vet &＃61; pullObservationsToDF(parameters)

查看返回的dataframe数据&＃xff1a;

print(df_vet.shape) df_vet.head()

如上图&＃xff0c;我们有800个数据&＃xff0c;5个特征。

步骤2&＃xff1a;建立机器学习模型

我们首先观察表皮病学水平和体重的关系&＃xff1a;

%matplotlib inline df_vet.plot.scatter(&＃39;epidermiology_level&＃39;, &＃39;weight_in_kg&＃39;)

由上图可知&＃xff0c;表皮病学水平和体重呈负相关的关系。

我们首先用简单的线性回归模型来学习&＃xff1a;

每个点的误差是给定输入值x&＃xff0c;预测值和真实值的距离&＃xff0c;最小化该误差来选择a和b。

通过数据集构建线性回归模型的代码&＃xff1a;

# First we declare it regr &＃61; LinearRegression() # Then we fit (or train) it to relate epidermiology with weight regr.fit(df_vet[[&＃39;weight_in_kg&＃39;]], df_vet[[&＃39;epidermiology_level&＃39;]]) # Let&＃39;s take a look at the intercpt (Our &＃39;a&＃39;) print(regr.intercept_) # And the slope (Our &＃39;b&＃39;) print(regr.coef_)

回归模型系数a和b的结果&＃xff1a;

把该模型添加到上图&＃xff1a;

axes &＃61; df_vet.plot.scatter(&＃39;epidermiology_level&＃39;, &＃39;weight_in_kg&＃39;) x_vals &＃61; np.array(axes.get_xlim()) y_vals &＃61; 37.01155578 &＃43; -0.47164364 * x_vals axes.plot(x_vals, y_vals, &＃39;-&＃39;)

数据集划分为训练集和测试集&＃xff0c;测试集的作用是检测机器学习模型的泛化水平&＃xff1a;

# First we define &＃39;X&＃39; and &＃39;y&＃39; X &＃61; df_vet[[&＃39;weight_in_kg&＃39;]] y &＃61; df_vet[[&＃39;epidermiology_level&＃39;]] # Then we separate 500 to train X_train &＃61; X[:500] y_train &＃61; y[:500] print("Train X and y:") print(X_train.shape) print(y_train.shape) # And 300 to test X_test &＃61; X[500:] y_test &＃61; y[500:] print("Test X and y:") print(X_test.shape) print(y_test.shape)

我们利用均方误差&＃xff08;MSE&＃xff09;来测试模型的泛化水平&＃xff1a;

# First we traqin the model with the Test Set lm &＃61; LinearRegression() lm.fit(X_test, y_test) # Then we generate predictions and compare to ‘y’ test predictions &＃61; lm.predict(X_test) mean_squared_error(y_test, predictions)

测试集的均方误差&＃xff1a;

输出预测值和真实值结果&＃xff1a;

df_preds_res &＃61; pd.DataFrame({&＃39;y_test&＃39;:y_test[&＃39;epidermiology_level&＃39;], &＃39;y_pred&＃39;:pred[:,0]}) df_preds_res.head(15)

现在让我们看看是否可以通过增加输入变量来优化该模型。

步骤3&＃xff1a;优化ML模型

线性回归的输入值一般是数值型的&＃xff0c;我们首先将特征&＃39;animal&＃39;和&＃39;has_listeriosis&＃39;转换为数值类型。

转换前的数据&＃xff1a;

转换代码&＃xff1a;

#We add the &＃39;categorical_treatment&＃39; parameter and pull again. parameters &＃61; {&＃39;token&＃39; : &＃39;YOUR_TOKEN&＃39;,&＃39;id_user&＃39; : &＃39;YOUR_USER_ID&＃39;,&＃39;id_dataset&＃39;:&＃39;5db079199516296099c9fb1e&＃39;,&＃39;categorical_treatment&＃39;: {"treatment" : "convert_to_numeric", "exclude" : ["weight_in_kg"]} } df_vet_numerical &＃61; pullObservationsToDF(parameters)

转换后的数据&＃xff1a;

为了获得更多有用的特征&＃xff0c;我们将日期细分为许多与时间相关的特征&＃xff0c;如星期几&＃xff0c;几月份。

parameters &＃61; {&＃39;token&＃39; : &＃39;YOUR_TOKEN&＃39;,&＃39;id_user&＃39; : &＃39;YOUR_USER_ID&＃39;,&＃39;id_dataset&＃39;:&＃39;5db079199516296099c9fb1e&＃39;,&＃39;categorical_treatment&＃39;: {"treatment" : "convert_to_numeric",&＃39;exclude&＃39; : ["weight_in_kg"]},&＃39;date_treatment&＃39;:{"treatment":"breakdown"} } df_vet_numerical &＃61; pullObservationsToDF(parameters) df_vet_numerical.columns

特征有&＃xff1a;

数据集划分为训练集和测试集&＃xff1a;

target_variable &＃61; &＃39;epidermiology_level&＃39; # First we define ‘X’ and ‘y&＃39; X &＃61; df_vet_numerical.loc[:, df_vet_numerical.columns !&＃61; target_variable].values y &＃61; df_vet_numerical.loc[:,[target_variable]].values # Then we separate 500 to train X_train &＃61; X[:500] y_train &＃61; y[:500] print("Train X and y:") print(X_train.shape) print(y_train.shape) # And 300 to test X_test &＃61; X[500:] y_test &＃61; y[500:] print("Test X and y:") print(X_test.shape) print(y_test.shape)

现在我们有30个特征构建回归模型&＃xff0c;表达式为&＃xff1a;

对比单变量的线性回归模型&＃xff0c;看看MSE是否有降低。

# First we traqin the model with the Test Set lm &＃61; LinearRegression() lm.fit(X_test, y_test) # Then we generate predictions and compare to ‘y’ test pred &＃61; lm.predict(X_test) mean_squared_error(y_test, pred)

由结果可知&＃xff0c;多变量的MSE降低了&＃xff0c;因此多变量的模型性能更好了。

输出预测值和真实值。

df_preds_res &＃61; pd.DataFrame({&＃39;y_test&＃39;:y_test[:,0], &＃39;y_pred&＃39;:pred[:,0]}) df_preds_res.head(15)

干货 | 清晰易懂的机器学习算法原理介绍

欢迎扫码关注&＃xff1a;

推荐阅读

string
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
string
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
string
无法使用fetch在服务器端读取/获取发布的数据

本文介绍了一个React Native新手在尝试将数据发布到服务器时遇到的问题，以及他的React Native代码和服务器端代码。他使用fetch方法将数据发送到服务器，但无法在服务器端读取/获取发布的数据。 ... [详细]

蜡笔小新 2023-12-11 11:26:28
string
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
string
使用nodejs爬取b站番剧数据，计算最佳追番推荐

本文介绍了如何使用nodejs爬取b站番剧数据，并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据，以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]

蜡笔小新 2023-12-14 20:44:52
string
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
js
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
string
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
string
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
replace
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
string
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
数组
网络请求模块选择——axios框架的基本使用和封装

本文介绍了选择网络请求模块axios的原因，以及axios框架的基本使用和封装方法。包括发送并发请求的演示，全局配置的设置，创建axios实例的方法，拦截器的使用，以及如何封装和请求响应劫持等内容。 ... [详细]

蜡笔小新 2023-12-12 10:16:43
install
CEPH LIO iSCSI Gateway及其使用参考文档

本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档，包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接，详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]

蜡笔小新 2023-12-12 10:10:14
string
如何查询zone下的表的信息

本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求，并提供了请求示例。 ... [详细]

蜡笔小新 2023-12-12 08:26:32
string
如何在Laravel DB :: insert中返回OUTPUT子句的值？

本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时，如何在插入查询中使用输出子句，并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后，值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 10:09:09

mobiledu2502899415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章